2019/06/26 09:37:05

Компьютерное зрение:
технологии, рынок, перспективы

В июне 2019 года аналитический центр TAdviser и компания «Системы компьютерного зрения» (входит в ГК ЛАНИТ) представили исследование рынка решений компьютерного зрения (Computer Vision, CV), охватывающее и мировые тренды, и ситуацию в России. Согласно оптимистичному сценарию, за 5 лет объем российского рынка CV может вырасти почти в 5 раз, до 38 млрд рублей.

Важность исследования

Компьютерное зрение и искусственный интеллект – одни из самых востребованных направлений в современном мире ИТ, - отмечает Владимир Уфнаровский, совладелец компании «Системы компьютерного зрения». - О достижениях России в этих областях известно очень немного, но при этом огромное количество разработок базируется, в частности, на российских исследованиях. Кроме того, существует множество разнообразных «мифов» вокруг КЗ и ИИ – одни считают, что компьютеры уже легко могут «видеть» и «осознавать» что-либо, превосходя человека, а другие, наоборот, не понимают, насколько уже продвинулись технологии. Мы (коллектив «ЛАНИТ-ТЕРКОМ», а затем и «Систем компьютерного зрения») занимаемся КЗ с 2006 года и очень рады, что наконец появился всеобъемлющий материал, описывающий современное состояние дел

Основы компьютерного зрения

Компьютерное зрение (Computer Vision, CV), в том числе машинное зрение (Machine Vision, MV) – это автоматическая фиксация и обработка изображений, как неподвижных, так и движущихся объектов при помощи компьютерных средств^[1]. В России также используется термин «техническое зрение».

Первые попытки заставить компьютер «видеть» относятся к началу 60-х годов 20 века. Однако лишь в последние годы в связи с повышением вычислительных мощностей и быстродействия процессоров, объёмов памяти, повышением разрешающей способности и других параметров камер, развитием полосы пропускания каналов связи, а также с появлением таких технологий, как машинное и глубокое обучение (Machine/Deep Learning), искусственный интеллект AI (Artificial Intelligence) технологии CV/MV стали находить все больше применений в различных отраслях индустрии и повседневной жизни людей.

В последние годы CV стало активно использоваться в промышленности, в т.ч. в таких отраслях, как автомобилестроение, пищевая промышленность, фармацевтика, производство микроэлектронных изделий и многих других.

В расширенной версии исследования содержатся более полные сведения о технологиях компьютерного зрения, о последних тенденциях его конвергенции с искусственным интеллектом, а также о новых областях применения КЗ. Кроме того, в расширенной версии дан обзор российских компаний, работающих в различных областях КЗ. Для получения отчета направьте запрос на адрес mr@tadviser.ru

Например, в автомобилестроении применяют системы CV, чтобы считывать маркировку компонентов при сборке на конвейере. Компьютерное зрение также используется для повышения качества, в частности, для осмотра, калибровки, проверки размеров, зазоров, расстояний, а также для выравнивания деталей на линиях сборки автомобилей.

В производстве пищевой продукции системы CV могут проверять, все ли ингредиенты указаны на упаковке товара, особенно те, которые могут содержать аллергические вещества.

Фармацевтика подразумевает высокую ответственность за обеспечение безопасности, поэтому необходимо надёжно отслеживать все компоненты состава и качество готовой продукции.Российский рынок BPM-систем: оценки, лидеры, тренды и перспективы. Обзор TAdviser 22.5 т

При изготовлении микросхем и электронных компонентов CV используют в чистых помещениях для контроля размещения кремниевых пластин, маркировки и положения чипа интегральных схем и других элементов.

Сегодня компьютерное зрение широко применяется для многих компонентов цифровой экономики:

«Умный город» (Smart City),
Интеллектуальные транспортные системы ИТС (Intelligent Transportation System),
Автономные автомобили (Driverless Car) и системы помощи водителю ADAS (Advanced driver-assistance systems),
Беспилотные летательные аппараты (в т.ч. дроны),
Высокотехнологичное сельское хозяйство (Smart Agriculture),
Электронная медицина (eHealth)
Системы военного применения,
Аддитивное производство (3D-printing)

и во многих других. Причём, постоянно появляются всё новые области и сценарии применения CV.

Сегодняшнее развитие систем CV пока далеко от реализации всех его возможностей. Однако эта отрасль быстро развивается и диапазон его применений быстро ширится.

«Компьютерное зрение» («машинное зрение», техническое зрение») часто путают с видеоаналитикой. Однако, эти понятия неравнозначны. Можно сказать, что видеоаналитика является составной частью компьютерного зрения в части анализа изображения.

Компьютерное зрение (Computer Vision) – это технология (а также область исследований) по автоматизации понимания того, что мы видим в окружающем мире.

Видеоаналитика (VCA, Video Content Analysis) – это частные приложения компьютерного зрения, которые извлекают информацию и знания из видеоконтента, то есть дают ответы на вопросы:

Кто: распознавание и идентификация людей;
Что: объекты, действия, события, поведение, взаимоотношения;
Где: геолокация, пространственная (3D) и планарная (2D) локация;
Когда: маркировка даты и времени, сезона.

Три основных типа приложений видеоаналитики:

Ретроспектива: что уже случилось, т.е. управление архивами видеозаписей, поиск, сортировка, получение юридических доказательств;
Настоящий момент: что происходит сейчас, т.е. контроль ситуации, получение предупреждений в реальном времени, кодирование, компрессия видеопотока;
Взгляд в будущее: что может или скорее всего произойдёт, т.е. предсказания на основе событий прошлого и настоящего, прогнозирование событий или активности, детектирование намечающихся аномалий.

Подробнее о рынке и технологиях видеоаналитики говорится в отдельном обзоре TAdviser.

Задачи CV

Задачи CV заключаются, главным образом, в получении полезной информации (insight) из фото- или видеоизображений. Наиболее употребительными задачами CV могут быть:

Задачи калибровки камер и оптических систем, как состоящих из одной камеры, так и набора камер
Задачи определения движения по изображениям
Задачи определения препятствий по ходу движения
1. В 3D-облаке по стереокамере или набору камер
2. По одной камере за счёт движения
Задачи распознавания объектов на сцене
Задачи пространственной реконструкции сцены
Задачи локализации изображения в заранее известной сцене
Задачи анализа отличия в наборе изображений

Технологии

В общем случае, системы CV состоят из фото- или видеокамеры, а также компьютера, на котором работают программы обработки и анализа изображений.

Если программное обеспечение по обработке изображения расположено непосредственно в камере, такая камера называется «смарт-камерой». ПО может также работать на удалённом компьютере или компьютерах, или выполняться в облаке по модели SaaS (Software as a Service).

Структура CV-системы со Smart-камерой (источник: visiononline.org)

Системы компьютерного зрения включают следующие основные компоненты:

подсветку объекта (не всегда требуется) и оптику (линзы и объективы)
сенсорную матрицу для проецирования изображения
системы обработки изображения, полученного с матрицы.

В необходимых случаях, например, внутри помещений, когда свет можно контролировать, может подсвечиваться часть объекта, которую необходимо инспектировать, так, чтобы нужные характеристики объекта были заметными для камеры.

Оптическая система проецирует полученное изображение в форме видимого или невидимого человеческим глазом спектра на сенсорную матрицу. Сенсорная матрица камеры преобразует изображение в цифровой образ, который затем посылается в процессор для анализа.

В большинстве случаев системы CV предназначены для работы в естественном освещении. Кроме того, системы CV могут работать в диапазонах, невидимых для человеческого глаза.

Для работы в условиях недостаточного освещения могут использоваться камеры с подсветкой, в которых кольцевой источник света обеспечивает яркое равномерное освещение объекта, когда необходимо высветить фактуру материала, мелкие детали и пр. Также освещение помогает избавиться от бликов, засветки объекта, используется в сложных условиях, например, в тумане.

Интегрированный источник с диффузным кольцом (источник: Cognex)

Такой интегрированный источник не даёт затенения и обеспечивает ровное освещение матовых поверхностей. Сенсорная матрица располагается в камере и предназначена для фиксации изображения соответствующим образом освещённого объекта. Обычно сенсорные матрицы строятся на основе полупроводниковых приборов с зарядовой связью ПЗС, CCD (charge coupled device), либо может быть использована комплементарная технология «металл-окисел-полупроводник» КМОП, или CMOS (complementary metal oxide semiconductor).

Изображение представляет собой набор элементов – пикселей, цвет которых зависит от освещённости. Плотность пикселей (разрешение сенсорной матрицы) очень важна для корректной работы приложения компьютерного зрения. Чем больше разрешение, тем больше деталей будет на изображении, тем более точными будут измерения. Требуемая плотность пикселей зависит от размеров объекта, рабочего расстояния камеры и других параметров.

Типы систем CV и методы обработки изображений

Существует три основных типа систем CV ^[2]:

одномерные (1D),
двумерные (2D)
бъёмные (3D) системы СV.

Отдельно стоят панорамные многокамерные системы и системы «рыбий глаз» (fisheye), которые обычно относят к особому типу, а иногда, в зависимости от количества камер, их конструкции и расположению – к одному из вышеперечисленных типов.

Стереозрение

Стереозрение – один из методов извлечения информации о глубине сцены при помощи изображений с двух камер (стереопары). В основе метода лежит принцип человеческого зрения, когда мозг человека получает информацию об объёме по картинке от двух глаз. Точно так же разница в расположении пикселей в изображении с двух камер даёт информацию о глубине.

Принцип стереозрения (источник: vision-systems.com)

При помощи регулировки расстояния между камерами стереопары (baseline) можно регулировать требуемую глубину распознавания сцены.

Сферические и панорамные системы

Сферические (панорамные) системы «рыбий глаз» (fisheye) используются для эмуляции панорамных PTZ-камер для видеонаблюдения и для интеграции трансляционных веб-камер в 2D- и 3D-приложения геоинформационных систем (ГИС), таких как Google Earth и Google Maps^[3] .

Панорамные fisheye-системы, работающие с приложениями обработки изображений облачных провайдеров, применяются, например, в системах помощи водителю (ADAS), беспилотных автомобилях, при мониторинге больших пространств и подсчёте количества людей^[4].

Типичное изображение с камеры «рыбий глаз» (fisheye) (источник: Journal of Imaging, 2018)

Многокамерные системы (массивы)

Массивы (сети) камер используются для отслеживания перемещения отдельных людей внутри помещений или в местах с ограниченной видимостью (склады в морских портах, заводские территории и пр.), а также для управления дорожным движением в интеллектуальных транспортных системах (ИТС).

Системы из небольшого количества (2 – 6) камер применяются для таких областей как:

Автоматизация производства,
Видеонаблюдение с БПЛА,
3D-фильмы,
Интерактивные игры AR/VR,
Распознавание лиц, движения, идентификации и пр.

Например, использование многокамерной системы из пяти камер на конвейере при массовом производстве значительно облегчает контроль качества продукции^[5].

Система из 5 камер для контроля качества продукции на конвейере (источник: © MVTecSoftware GmbH)

Библиотеки ПО компьютерного зрения

OpenCV (Open Source Computer Vision Library) – библиотека алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения. Реализована на языке C/C++, также разрабатывается для Python, Java, Ruby, Matlab, Lua и других языков.
PCL (Point Cloud Library) — крупномасштабный открытый проект для обработки 2D/3D-изображений и облаков точек. Платформа PCL содержит множество алгоритмов, включая фильтрацию, оценку характеристик, реконструкцию поверхности, регистрацию, подбор модели и сегментацию.
ROS (Robot Operating System) – платформа разработки ПО для роботов. Она представляет собой набор инструментов, библиотек и соглашений, которые упрощают разработки сложных и эффективных программ для управления многими типами роботов.
MATLAB — высокоуровневый язык и интерактивная среда для программирования, численных расчётов и визуализации результатов. С помощью MATLAB можно анализировать данные, разрабатывать алгоритмы, создавать модели и приложения.
CUDA (Compute Unified Device Architecture) — программно-аппаратная архитектура параллельных вычислений, которая позволяет существенно увеличить вычислительную производительность благодаря использованию графических процессоров фирмы Nvidia.

Системы и методы обработки изображений

В простых системах обработки CV обычно требуется получить количественную и качественную информацию из визуальных данных (изображений): такие параметры, как размер, цвет, количество, направление и характер движения, а также контрастные переходы в окрестностях пикселя изображения, из которых производится получение характерных черт, ХЧ (т.н. «фичи», от англ. Features). На их основе производится анализ изображения для извлечения полезной информации.

В системах обработки изображений CV используются такие методы, как машинное обучение (Machine Learning), системы глубокого обучения (Deep Learning) и нейросети (Neural Networks). Эти методы имитируют процесс распознавания и анализа, который проходит в мозге человека.

Основные подходы к решению задач СV

Основные подходы к решению задач СV:

Контурный анализ
Поиск по шаблону (template matching)
Поиск вне шаблонов, сопоставление по ключевым точкам (feature detection, description matching)
Совмещение данных (Data Fusion)

Компьютерное зрение не ограничивается только этими основными методами, например, можно выделить так называемые генетические алгоритмы, применяемые, в частности, для распознавания лиц.

Контурный анализ

Контур объекта – это кривая, соответствующая границе объекта на изображении. В этом методе анализируется не полное изображение объекта, а только его контур, что существенно снижает сложность алгоритмов и вычислений при обработке. Ограничения метода контурного анализа:

при одинаковой яркости с фоном объект может не иметь чёткой границы на изображении или оно может быть «зашумлено» помехами, что приводит к невозможности выделения контура;
перекрытие объектов или их группировка приводят к тому, что контур выделяется неправильно и не соответствует границе объекта;
слабая устойчивость к помехам, приводящая к тому, что любое нарушение целостности контура или плохая видимость объекта приводят либо к невозможности детектирования, либо к ложным срабатываниям.

Поиск по шаблону (Template matching)

Самый распространённый метод распознавания объектов в CV – поиск соответствия шаблонам изображений (template matching)^[6] , чтобы определить, есть ли заданный объект на изображении, и, если есть, где он находится на изображении. Приложения метода: распознавание транспортных средств, прокладка маршрутов для мобильных роботов, производство и приложения в медицине, и др. Основные виды поска по шаблону:

Простое соответствие

Простое соответствие – один из основных методов нахождения нужного объекта на изображении при поиске по шаблону. Метод заключается в пошаговом сканировании шаблоном исходного изображения, при каждом шаге которого измеряется или рассчитывается степень соответствия участка изображения шаблону. В конце сканирования на изображении выделяется область, наиболее соответствующая шаблону.

Соответствие на базе характерных черт, «фич» (Feature-based matching)

Метод соответствия по характерным чертам, ХЧ, применим, когда как изображение, так и шаблон содержат больше соответствий по ХЧ и контрольным точкам ^[7], чем по цельному образу. В этом случае, ХЧ могут включать точки, кривые или модели поверхности, которые проверяются на соответствие шаблону. Цель такой проверки – найти парные связи между целью (т.н. «референсом») и частью изображения с использованием пространственных соотношений или ХЧ.

Соответствие на базе областей (Area-based matching)

Методы нахождения соответствия на базе областей (Area-based), которые также называются корреляционными методами, основаны на комбинированном алгоритме нахождения характерных черт, ХЧ (feature detection), и соответствия шаблону (template matching). Такой метод хорошо работает, если шаблоны не имеют заметных общих ХЧ с изображением, поскольку сравнение происходит на пиксельном уровне. Соответствия измеряются по показателям интенсивности шаблона и изображения ^[8].

В некоторых случаях нахождение прямого соответствия между шаблоном и изображением невозможно (см. рисунок ниже). Поэтому, при нахождении соответствия используются собственное значение (eigenvalue) и собственное пространство (eigenspace). Эти величины содержат информацию, необходимую для сравнения образов при разных условиях освещённости, контрастности контуров или совпадения по положению объектов.

Применение метода Area-based в геодезии (источник: Remote Sensing, 2017)

Корреляция изображений (Image Correlation Matching)

В этом методе измеряются метрики подобия (similarity metric) между исходным изображением и шаблоном. В отличие от метода простого соответствия, исходное изображение и шаблон могут иметь различные интенсивности изображения или уровни шума. В этом случае сравнение производится по метрике подобия на основе корреляций между шаблоном и оригиналом.

Компьютерное зрение значительно расширяет возможности контроля качества продукции (фактически переводя контроль на новый уровень) непосредственно в производственном процессе, а не после изготовления детали или продукта^[9].

Автоматическая визуальная инспекция (определение дефектов) при помощи компьютерного зрения сегодня значительно превосходит ручные методы инспекции по точности, скорости, лёгкости выполнения и стоимости.

Контроль точности изготовления режущих кромок фрезы при помощи компьютерного зрения (источник: RSIP Vision)

Нейросети

Термин «нейросети» (Neural networks) был очень популярен в конце 1980-х – начале 1990-х годов. Нейросети состоят из слоёв, т.н. «нейронов», которые представляют собой вычислительные узлы, имитирующие работу нейронных клеток живого организма. Эти сети могут передавать информацию только в одном направлении и могут обучаться на примерах (для классификации объектов или регрессивного анализа).

Стандартная однослойная нейросеть (источник: RSIP Vision)

Глубокое обучение в системах CV

Глубокое обучение (Deep learning) может быть полезно в задачах, когда базовый элемент (отдельный пиксель изображения, одна частота сигнала, одно слово или буква) не несет большого смыслового значения, однако, комбинация таких элементов имеет полезное значение.

Системы глубокого обучения могут извлекать такие полезные комбинации без вмешательства человека (Unsupervised Feature Learning).

Глубокие нейросети (deep neural network), с более чем 1-2 слоями, ранее казалась либо нереализуемыми, либо непрактичными в использовании. До 2006 года, внешние слои нейросети были неспособны к извлечению ХЧ (features) входных изображений, поскольку алгоритмы обучения нейросетей оставались несовершенными.

На рисунке показан пример системы CV с машинным обучением на примере задачи сегментирования сцены по трём типам: «горизонтальный», «вертикальный» и «небо»^[10].

Пример сети машинного обучения на примере распознавания рельефа на изображении (источник: CSIRO, 2015)

Пиксельные данные от исходного изображения с коррекцией цвета поступают на нейросеть глубокого обучения, где производится предварительная обработка изображения и распознаётся, к какому типу рельефа принадлежит каждый пиксель с известной степенью вероятности.

Пример распознавания рукописных цифр с использованием простой одноуровневой нейросети приведён на рисунке ниже^[11].

Пример распознавания рукописных цифр в простой 2-х уровней нейросети (источник: GitHub, 2019)

Калибровка камер по шаблону

Технологии калибровки камер можно разделить на 2 вида^[12]:

Фотограмметрическая калибровка (по шаблону).
Калибровка по сцене.

Калибровка камер по шаблону обычно производится наблюдением за калибровочным объектом (шаблоном), геометрия которого в пространстве известна с большей точностью. Калибровочный объект обычно состоит из 2 или 3 плоскостей, расположенных под различными углами друг другу. Эти подходы нуждаются в дорогих калибровочных аппаратах и их тщательной установке.

Некоторые виды шаблонов для калибровки видеокамер (источник: МГТУ им. Баумана)

Калибровка камер по сцене не использует калибровочные объекты, а осуществляется лишь движением камеры в статической сцене. Если изображения будут браться от тех же самых камер с фиксированными внутренними параметрами, соответствия между тремя картинками будет достаточно для получения и внутренних, и внешних параметров, которые позволят реконструировать объёмную структуру объекта.

Компьютерное зрение вне шаблонов

Наборы ХЧ для обработки изображений в компьютерном зрении могут, например, представлять собой элементы изображения, такие как точки, края, линии или границы объектов. Другие примеры ХЧ относятся к движению в последовательности изображений, к формам, представленным в виде кривых между областями изображения, или к свойствам этих областей.

Детектирование и распознавание объектов

Детектирование объектов – это нахождение экземпляров объектов на изображении. При распознавании объектов не только устанавливается факт наличия объекта на изображении, но также и определяется его расположение на изображении^[13]. На рисунке ниже показаны примеры детектирования (слева) и распознавания объектов (справа).

Детектирование и распознавание объектов (источник: Hackernoon)

Детектирование объектов предусматривает сопоставление двух и более изображений при поиске изображений уникальных объектов, например, архитектурных сооружений, скульптур, картин и т.д., обнаружение на изображениях классов объектов разной степени общности (автомобилей, животных, мебели, лиц людей и т. д., а также их подклассов), категоризация сцен (город, лес, горы, побережье и т.д.)^[14].

Приложения для детектирования объектов также весьма разнообразны: сортировка изображений в домашних цифровых фотоальбомах, поиск товаров по их изображениям в интернет-магазинах, извлечение изображений в геоинформационных системах, биометрическая идентификация личности, целевой поиск изображений в социальных сетях и многое другое.

Распознавание такого разнообразия объектов и приложений обуславливает необходимость использования методов машинного и глубокого обучения.

Некоторые другие примеры применения метода распознавания вне шаблонов: фотограмметрия, обнаружение препятствий, одновременная локализации объектов и построение карты в неизвестном пространстве (SLAM), дефектоскопия.

Фотограмметрия

Фотограмметрия – это процесс создания 3D-моделей из нескольких изображений одного объекта, сфотографированного с разных углов.

Этот метод давно использовался в картографии и геодезии и стал более популярным благодаря доступности из-за увеличения мощности компьютеров. Это позволило использовать фотограмметрию в других областях:

создание геоинформационных систем (ГИС);
охрана окружающей среды (изучение ледников и снежного покрова, бонитировка почв и исследование процессов эрозии, наблюдение за изменениями растительного покрова, изучение морских течений);
проектирование и строительство зданий и сооружений;
киноиндустрия (совмещение игры живых актёров с компьютерной анимацией);
автоматизированное построение пространственных моделей объекта по снимкам;
компьютерные игры (создание трёхмерных моделей игровых объектов, создание реалистичных ландшафтов местности и пр.).

Обнаружение препятствий

Обнаружение препятствий используется, например, в системах помощи водителю ADAS (Adnvanced Driver Assistance System), в системах управления беспилотными ЛА и пр.

В число алгоритмов ADAS входят следующие:

Контроль полосы движения,
Обнаружение объектов на пути движения и по сторонам,
Распознавание дорожных объектов,
Адаптивный круиз контроль,
Круговой обзор.

SLAM

SLAM (Simultaneous Localization And Mapping) — метод одновременной локализации объектов и построения карты в неизвестном пространстве или для обновления карты в заранее известном пространстве с одновременным контролем текущего местоположения и пройденного пути. Он применяется в автономных транспортных средствах для их ориентации в пространстве.

Этот метод используется для пространственной реконструкции (Stereo-SLAM) во время движения транспортных средств для создания объёмных карт объектов по снимкам с одной или нескольких CV-камер^[15].

Пример работы SLAM (источник: grauonline.de)

Дефектоскопия

Системы CV с распознаванием вне шаблонов часто используются для нахождения различных дефектов в материалах и изделиях.

Дефектоскопия при непрерывном производстве (источник: http://www.mkoi.org/366/367/372/)

Распознавание объектов и локализация в заранее снятой сцене

Кроме терминов «детектирование» (detection) и «распознавание» (recognition) в технологиях компьютерного зрения используются также термины «классификация» (classification) и «локализация» (localization), а также «сегментация» (segmentation) объектов^[16].

Классификация объекта – распознавание на изображении одной категории объекта, обычно, самой заметной. Такой вид распознавания чаще всего используется в смартфонах, оснащённых «искусственным интеллектом».
Локализация объекта – объект не только распознаётся, но и локализуется на исходном изображении.
Детектирование объекта – на изображении могут быть объекты разных классов, которые распознаются и локализуются на исходном изображении.
Сегментация объектов – для каждого объекта не только распознаётся его класс и его местоположение, но также выделяются границы объекта на изображении.

Локализация наблюдателя и контроль измерений

Алгоритмы локализации позволяют определить позицию камеры относительно сцены (локализация) и обнаруживать отличия в сцене в исторической перспективе (присутствие новых объектов в сцене и изменение охвата сцены) на уровне облака точек^[17].

В процессе локализации выполняются следующие задачи:

Локализация в последовательности изображений: найти положение нового изображения в ранее снятой последовательности изображений;
Локализация в облаках точек (3D-модели):

- нахождение положение нового изображения в существующем облаке точек
  - с существующими изображениями, источниками для данного облака точек;
  - найти положение нового изображения с текстурированной облаком точек, с дополнительными данными от GPS (data fusion);
- нахождение положения нового облака точек в существующем облаке через исходные изображения;

Обнаружение изменений на изображениях и на облаках точек.

Локализация в облаке точек (источник: Системы компьютерного зрения)

Коррекция цвета и экспозиции

Распознавание цвета в системах CV для некоторых задач помогает определить свойства материалов: из чего сделан тот или иной объект и в каком он находится состоянии? Например, на чёрно-белом фото невозможно определить, какие ягоды спелые. На цветном фото это можно определить^[18].

Определение спелости ягод по цвету (источник: Graftek Imaging Inc)

Цветовое CV может гораздо точнее определить оттенок цвета, что часто требуется в различных отраслях, например, при ремонте автомобилей, в медицине и пр.

Точное определение оттенка с помощью цветового CV (источник: Graftek Imaging Inc)

Цветовое CV активно используется в следующих применениях:

Игры;
Инспекция медицинских препаратов и врачебная диагностика;
Идентификация деталей и запчастей;
Инспекция цветного материала (ткань, плёнка…) на соответствие заданному цвету;
Инспекция этикеток, наклеек и пр;
Сортировка отработанных материалов;
Удалённая сенсорика, отслеживание;
Биометрия, мониторинг трафика;
Тестирование красок и пигментов и пр.

Совмещение данных (Data Fusion)

Data Fusion – совмещение данных от различных источников с изображениями с камер CV с целью получения более точной и полезной информации. В CV можно столкнуться со следующими проблемами^[19]:

Различные ХЧ можно выделить из одного и того же изображения;
Различные экземпляры одного типа объектов (например, «люди», «машины») могут выглядеть очень по-разному;
Различные экземпляры одного класса объектов могут «вести себя» по-разному, по крайней мере, временами;
Один и тот же объект с различных точек наблюдения (т.е. с разных камер) может выглядеть по-разному;
Различные комбинации всего вышеперечисленного.

Совмещённый анализ данных с системы CV и комплекса датчиков помогает значительно повысить ценность информации, получаемой от системы CV и значительно улучшить работу приложения, её использующего. Например, системы ADAS кроме камер CV, могут оснащаться множеством различных датчиков: LIDAR, Radar, одометр, ультразвуковые датчики (см. рисунок ниже).

Комплекс датчиков и камер CV системы ADAS автомобиля (источник: towardsdatascience.com)

Комплексный анализ данных (Fusion Algorithm) со всех датчиков и дополнительных сенсоров (Supplementary Sensor) и системы CV (Vision System) позволит сделать однозначный вывод: «По ходу движения автомобиля в 11,6 м идёт пешеход».

Применения

Сегодня компьютерное зрение широко применяется во многих отраслях цифровой экономики, таких как «Умный город», автономные автомобили и системы помощи водителю (ADAS), беспилотные летательные аппараты, высокотехнологичное сельское хозяйство, здравоохранение и многих других.

Видеонаблюдение и безопасность

Видеонаблюдение – важная часть физической безопасности. Видеонаблюдение с участием человека, по большей части, сводится к длительным периодам ожидания чего-то необычного на видеомониторе. Это очень важная работа, но очень утомительная. По оценкам психологов, среднее время удержания внимания человека на одном объекте не превышает 14 минут^[20].

Поэтому были созданы т.н. системы интеллектуального видеонаблюдения IVS (intelligent video surveillance) на основе глубокого обучения^[21], задачей которых является распознавание необычных событий или предметов на кадрах видеонаблюдения (см. рисунок ниже).

Интеллектуальное видеонаблюдение (источник: NTT)

Платформа обработки изображений (Image processing) осуществляет распознавание лиц (Face detection), обнаружение движения (Motion detection), обнаружение статических объектов (Static object detection), защиту приватности (Privacy protection), отслеживание маршрута перемещения людей (Human tracking), обнаружение аномалий (Anomaly detection), оценку позы человека (Human pose estimation). При обнаружении каких-либо необычных явлений, выдаются предупреждения, объект выделяется на экране рамкой, и пр. (Warning, Emphasizing, Retrieving, Counting, и т.д.).

В некоторых городах, таких как Лас-Вегас и Дубай, глубокое обучение в системах видеонаблюдения получило практическое применение в системах «Умного города». Например, такие системы могут информировать соответствующие службы о том, когда и где необходимо собирать мусор, обслуживать уличное освещение или управлять сигналами светофоров, например, переключать свет с красного на зелёный, если в поперечном направлении нет машин и пр^[22].

Примеры дефектов прокатного листа (источник: «Системы компьютерного зрения»)

Машинное зрение для роботов

Промышленные роботы-манипуляторы обычно хорошо выполняют повторяющиеся рутинные задачи. Однако практически беспомощны, когда задача меняется, например, когда объект манипуляций будет другого размера или конфигурации. Машинное зрение даёт роботу возможность автоматически адаптироваться к изменениям размеров или неточностям объектов и их произвольному расположению. Таким образом, применение машинного зрения для роботов позволяет производить разные продукты, ничего не меняя в самом роботизированном комплексе и без его полного перепрограммирования.

Адаптивный робот для сварки (источник: журнал Control Engineering Россия #5 (77), 2018)

Автомобильная отрасль

Доля смертей из-за автомобильных аварий составляет 2,2% от общего количества смертей в мире. Это примерно 1,3 млн. в год, или почти 3300 человек в день, не считая того, что от 20 до 50 млн. человек в год получают серьёзные травмы в результате ДТП. Причиной столь высокой смертности чаще всего является «человеческий фактор»^[23].

Системы предупреждения о боковом трафике (Cross Traffic Alert)^[24] также помогают предотвратить множество аварий, когда водитель не замечает транспорт, движущийся в поперечном направлении. Такие системы обычно строятся на базе радаров, работающих на высокой частоте (20 ГГц и выше). Однако они довольно дороги и могут устанавливаться в автомобилях высокого класса как дополнительная опция^[25].

Компьютерное зрение способно значительно упростить такие системы и сделать их широкодоступными.

Работа системы предупреждения о движении в поперечном направлении (источник: cogentembedded.com)

Применение компьютерного зрения в военных целях

Основные применения CV в военных целях следующие^[26]:

Видеонаблюдение,
Автономные транспортные средства,
Средства обезвреживания минных полей,
Контроль качества при производстве боеприпасов.

Потребительский рынок

Дрон с компьютерным зрением, распознающий препятствия

Компания DJI выпустила новейший дрон Phantom 4 который способен распознавать препятствия при помощи встроенной системы CV и машинного обучения. Он способен самостоятельно выбирать маршрут полёта до указанной оператором цели^[27]. Процессор GPU дрона был разработан компанией Movidius.

Дрон компании DJI (источник DJI)

Компания Movidius объявила о сотрудничестве с Google в проекте внедрения глубокого обучения в смартфоны, что позволяет выполнять разработку изображений на смартфоне локально, а не оправлять большое количество графических данных в облако. В дроне DJI используется именно такая технология.

Медицина и здравоохранение

Применение компьютерного зрения для обработки медицинских изображений часто используется в компьютерной диагностике для планирования персональной терапии, медицинского ухода и улучшения принятия решений^[28].

Системы с машинным обучением на базе изображений компьютерного зрения помогают врачу поставить диагноз, поскольку на изображении могут присутствовать мелкие детали, которые врач может не заметить, но такие детали могут быть распознаны системой CV с высокой степенью надёжности.

Кроме того, изображение может быть сравнено с тысячами других подобных изображений в базе данных медицинской системы, и результат сравнения используется для более точной постановки диагноза медицинским специалистом.

Построение 3D-изображения раковой опухоли по данным компьютерной томографии

Компания Microsoft разработала систему CV InnerEye, которая может визуально идентифицировать и отображать на мониторе врача возможные опухоли и другие аномальные образования по данным компьютерной томографии^[29]. Затем лечащий врач может более точно идентифицировать их. Для разработки InnerEye был применён алгоритм глубокого обучения на миллионах сканов компьютерной томографии разных пациентов.

Интерфейс системы CV InnerEye (источник: Emerj Artificial Intelligence Research, 2019)

Несмотря на то, что в здравоохранении существует множество прорывов и технологических достижений, из-за особенностей работы медицины, вероятно, пройдёт ещё немало лет, прежде чем технологии CV в здравоохранении получат широкое распространение^[30].

Сельское хозяйство

Объем продукции сельскохозяйственного производства должен почти удвоиться, чтобы удовлетворить спрос на продукты питания для 9,7 миллиардов людей к 2050 году по данным ООН^[31]. Эффективность сельского хозяйства для этого должна вырасти почти на 25%. Применение CV-технологий совместно с системами глобального позиционирования позволяет вести точное (прецизионное) земледелие (precision agriculture)^[32], которое может значительно повысить урожайность и эффективность сельского хозяйства.

Использование беспилотных летательных аппаратов позволяет получать топографические карты местности, а применение технологий обработки изображений позволяет получать 3D-модели участков земной поверхности с возможностью определения любых геометрических размеров. Погрешность геометрических измерений при этом не превышает десятков сантиметров.

3.7.1. Определение зрелости хлопка На больших сельскохозяйственных предприятиях, например, хлопковых или кукурузных полях, определение зрелости урожая обычно делается вручную. Такие расчёты, как правило, позволяют получить лишь приблизительную оценку и занимают много времени. Поэтому разработчики из Университета штата Теннесси (США) разработали систему CV с оснащённым камерами квадрокоптером для мониторинга зрелости хлопка^[33].

Полученные с квадрокоптера фотографии обрабатывались с помощью алгоритма распознавания изображений, при этом удалось подсчитать урожай с точностью от 85% до 93% при использовании различных методов и средств анализа.

Определение веса свиней

Взвешивание свиней обычно делается только два раза за всё время их жизни: в начале и в конце откорма. Загнать животных на весы не очень сложно, но это огромный стресс для животного, а от стресса свиньи теряют вес. Если бы животноводы точнее знали, как идёт процесс откорма каждого поросёнка, то можно было бы составить индивидуальную программу откорма и определить индивидуальный состав пищевых добавок, что существенно улучшило бы общий выход продукции.

Поэтому был разработан новый, неинвазивный метод взвешивания животных на основе системы компьютерного зрения, которая оценивает вес свиней по фото- и видеоданным с использованием машинного обучения. На основании полученных данных корректируется процесс откорма.

Контроль степени откорма поросят (источник: Neuromation)

CV для доения коров

Компания «GEA Farm Technologies» разработала систему CV робота для доения коров. Система CV решает задачу точного наведения чашек насосов на соски вымени коровы (объекты), с помощью системы трекинга объектов и системы структурной подсветки, которая необходима для определения дальности от камеры до всех объектов.

Также была разработана система для автоматического обнаружения объектов на видео и их сопровождения в межкадровом пространстве в режиме реального времени: оценка положения, параметров формы и динамики движения в каждый момент времени.

В системе CV важными параметрами слежения за объектами являются время захвата объекта системой CV и его дальнейшее отслеживание. В разработанной CV удалось достичь времени в 3-10 мс на захват всех 4-х объектов, и 0,6 мс – на установку слежения за всеми найденными объектами. Система CV также может определять дальность до объектов в диапазоне 200-700 мм с точностью менее 2,5 мм на всём диапазоне дистанций.

Захват и отслеживание объектов (источник: GEA Farm Technologies)

Прецизионное земледелие

В настоящее время во всём мире получают широкое распространение решения для прецизионного (точного) земледелия (Precision Agriculture), которые за счёт точного позиционирования сельхозтехники на обрабатываемом поле и, следовательно, более точной обработке пашни, позволяют поднять урожайность на 10% и более.

Компанией «Системы Компьютерного Зрения» разработана система точного земледелия, которая за счёт применения системы CV позволяет достичь точности позиционирования орудия обработки (имплемента) 2 см на дистанции в 6 м (см. рисунок ниже).

Система позиционирования имплемента (источник: compvisionsys.ru)

Розничная торговля

CV в сочетании с алгоритмами искусственного интеллекта позволяет ритейлерам автоматизировать процессы, которые раньше требовалось выполнять вручную. Уведомления о закончившихся товарах или неудовлетворении других требований покупателей можно получать автоматически, создав систему аналитики непосредственно в торговой точке.

Например, компания Х5 планирует внедрить в своих магазинах системы компьютерного зрения, чтобы отслеживать наличие полного ассортимента товаров на полках и вовремя выкладывать раскупленные товары, а также контролировать длину очереди на кассе и, в случае появления большего количества покупателей в залах магазина, сразу же увеличивать количество работающих касс^[34].

В 2018 году компания Amazon году открыла магазин Amazon Go, с решением Just Walk Out Shopping^[35], которое позволяет оплачивать товары автоматически при выходе из магазина без подхода к кассе. Камеры CV способны распознавать не только действия покупателя, когда он берёт товар с полки и кладёт в корзину, но и наоборот, когда он кладёт товар обратно на полку. В этом случае, товар удаляется из виртуальной корзины покупателя. Камеры отслеживают покупателя всё время, пока он находится внутри магазина, без распознавания лиц.

Логистика, доставка товаров

Анализ складских запасов

Компания «Системы компьютерного зрения» разработала новую технологию определения объёмов древесных брёвен с помощью анализа изображений. Для получения точных данных достаточно сфотографировать штабель брёвен с двух сторон. Затем программа обработки изображений самостоятельно определит количество брёвен, плотность укладки и введёт нужные поправки. В качестве дополнительных опций можно определить количество коры, качество древесины (выявление гнили) и некоторые другие параметры^[36].

Работа программы по определению объёма древесины (источник: compvisionsys.ru)

Данная система способна обеспечить погрешность вычисления объёма древесины не более 3%. Точность измерения составляет 97-98%. Для сравнения, при ручном методе точность измерения составляет 85-95%, а при пропуске лесовоза через дорогостоящую лазерную рамку – 90-95%.

Другие применения распознавания образов

Компанией «Системы компьютерного зрения» разработана система контроля популяции и передвижения амурских тигров при помощи компьютерного зрения на основе распознавания особей по снимкам с фотоловушек (подробнее). Система автоматически определяет принадлежность тигра к конкретному уникальному номеру или имени по изображениям, полученным системой с фотоловушек. Система позволяет вносить информацию о каждом тигре: уникальный идентификатор, имя, пол, возраст, сколько раз был сфотографирован и карту с его фотографиями, иметь ссылки на родственных тигров и возможность проставлять эти родственные связи. Идентификация тигра осуществляется с помощью алгоритмов компьютерного зрения с использованием свёрточных нейросетей.

Фотография из системы контроля популяции и передвижения амурских тигров (источник: compvisionsys.ru)

Производство

Современное высокотехнологичное производство требует особых подходов к контролю качества выпускаемой продукции. Компьютерное зрение (CV) совершило настоящий технологический прорыв и значительно расширило возможности дефектоскопии в промышленности, перевела ее на новый, более высокий уровень. Теперь технологии позволяют отслеживать качество не только после изготовления изделия или продукта, но и непосредственно во время производственного процесса. Кроме того, системы CV способны значительно упростить и ускорить дефектоскопию производственного оборудования, агрегатов и коммуникаций, находящихся в эксплуатации (подробнее).

Будущее компьютерного зрения

CV – быстро растущая область цифровых технологий, которая затрагивает многие стороны повседневной жизни.

Компания Apple внедрила функцию распознавания лиц в новые модели iPhone, приобретя такие компании, как PrimeSense, RealFace и Faceshift. Американский портал AngelList, объединяющий стартапы и инвесторов, составил список из 529 новых компаний, которые работают в области компьютерного зрения^[37]. Средняя капитализация таких стартапов составляет 5,2 млн. долл. Много стартапов привлекают капитал от 5 до 10 млн. долл. Портал отмечает, что поток инвестиций в компьютерное зрения нарастает. Замена человеческого зрения на компьютерное во многих областях – очень выгодное вложение капитала.

Точность анализа видеоинформации компьютером всё время растёт и применение CV может дать большую экономию средств наряду с улучшением качества.

Можно выделить пять основных тенденций развития CV^[38]:

Рост промышленных систем компьютерного зрения. CV для медицинских устройств, фармацевтики, производства пищевых продуктов, автомобильной промышленности предоставляет более высокий уровень контроля качества, а CV для промышленности, как ожидается, в 2019 году станет основным трендом в области компьютерного зрения.
Облачные системы глубокого обучения. Алгоритмы глубокого обучения и классификаторы нейросетей позволят более быстро и точно проводить классификацию и распознавание изображений от систем CV. В ближайшие годы число таких разработок значительно возрастёт.
Робототехника. Использование промышленных роботов стремительно увеличивается. Поэтому спрос на системы CV для роботов будет расти.
Рост требований к параметрам оптики для CV, который вызван ростом требований к чёткости и разрешающей способности изображений CV. Разрабатываются и производятся сенсоры для CV-камер с большей разрешающей способностью и с большим количеством пикселей, однако, без качественной оптики эти усовершенствования будут малополезны. Поэтому разрабатываются такие инновационные решения, как микролинзы на каждый пиксель и др., которые кардинально могут повысить параметры работы оптических систем, которые уже подошли к своим технологическим пределам в традиционных решениях.
Использование термальных изображений при контроле производственных процессов. Обычно термальные камеры использовались в основном для военных целей, в охранном видеонаблюдении. Термальные изображение в комбинации с CV могут обнаруживать такие аномалии в производственном процессе, которые не видны глазу или традиционным системам CV.

Искусственный интеллект общего применения (AGI – Artificial General Intelligence)

Термин (AGI) Artificial General Intelligence, появившийся относительно недавно, означает способность компьютера совершать абстрагированные умозаключения или, по крайней мере, имитировать этот процесс, тем самым приближая его к мышлению человека^[39]. Однако AGI пока находится на самой ранней стадии развития. Абстрактное мышление остаётся пока неразрешимой проблемой для искусственного интеллекта.

Именно по этой причине технологии AGI находятся на кривой Гартнера в самом начале подъёма «триггера инноваций».

CV является одной из важных составляющих технологий для искусственного интеллекта AI (см. рисунок ниже).

Технологии, лежащие в основе искусственного интеллекта AI (источник: thegalleria.eu)

Рынок

Диапазон применений CV в последние 10-15 лет значительно расширился. Компания Tractica в своём отчёте о рынке компьютерного зрения в 2014 году указывает шесть областей CV.В 2016 году в новой версии отчёта Tractica указывает уже восемь областей применения компьютерного зрения: добавлены Retail (розничная торговля) и Agriculture (сельское хозяйство).

Рост объёма рынка CV 2015-2022 гг. (источник: Tractica, 2016)

Мировой рынок CV

Оценки объёма мирового рынка систем CV у различных аналитических компаний довольно сильно разнятся в зависимости от методологии исследования, таксономии и классификации технологий компьютерного зрения. Разные аналитические компании оценивают рынок по своим методикам, включая или не включая те или иные технологии и области в объём предметной оценки. Например, некоторые компании могут включать в состав технологий CV рентгеновские установки или МРТ, другие считают, что эти технологии к CV не относятся. Некоторые компании выделяют рынок распознавания образов отдельно от рынка CV, причём, по их оценкам, он превосходит рынок CV (или того, что они считают CV).

Одни компании могут оценивать рынок CV вместе с сопутствующей технологией искусственного интеллекта (AI), другие выделяют AI в отдельный рыночный сегмент. С другой стороны, далеко не весь объём AI относится к CV.

Все это затрудняет процесс объективной оценки рынка CV в мире, отдельных регионах и странах.

Например, наиболее авторитетная аналитическая компания McKinsey в своём исследовании об искусственном интеллекте указывает, что границы между многими технологиями CV чётко не очерчены, поэтому объёмы рынка не удаётся точно определить.

Так, на 2016 г. McKinsey оценивает рынок Computer Vision c большим «разбросом»: от 2,5 до 3,5 млрд. долл. Причем наибольшую долю инвестиций среди смежных технологий, где может использоваться CV, занимает машинное обучение (Machine Learning) с уровнем инвестиций в 5 – 7 млрд. долл.

Оценка рынка смежных технологий (источник: McKinsey, 2017)

Ниже приведены оценки рынка CV, его сегментов и сопутствующих технологий от различных мировых аналитических компаний.

Market Research Future

Компания Market Research Future оценивает мировой рынок CV в 2017 году в 9,2 млрд. долларов США и ожидает, что к 2023 году он превысит 48,3 млрд. долл. при устойчивом росте^[40], который увеличивается после 2020 года (см. рисунок ниже).

Прогноз роста рынка CV до 2023 года (источник: marketresearchfuture.com, TAdviser)

Marketsandmarkets

По данным компании MarketsandMarkets лидерами рынка CV в 2023 г. будут являться следующие регионы мира^[41]:

Азиатско-Тихоокеанский регион (около 32%),
Северная Америка (около 27%),
Европа (около 22%).

В том же порядке располагаются и лидеры по темпам роста, причем с большим отрывом опережает Азиатско-Тихоокеанский регион (более 8% среднегодового роста).

Лидеры рынка CV в мире к 2023 году (источник: Marketsandmarkets, TAdviser, 2018)

Компания Marketsandmarkets также оценивает рынок решений искусственного интеллекта AI для CV в 3,62 млрд. долл. в 2017 г. с ростом до 25,32 млрд. долл. в 2023 году.

Рост рынка искусственного интеллекта для компьютерного зрения (источник: Marketsandmarkets, 2018)

Tractica

Компания Tractica более консервативна в своих оценках из-за более строгой сегментации технологий CV. Аналитики разделили рынок CV на три основных сегмента: программное обеспечение (Software), услуги (Services) и оборудование (Hardware)^[42].

Tractica использует методику оценки рынка по генерируемому каждым сегментом доходу. Если в 2016 году выручка на нем составила $1,1 млрд, то в 2017-м показатель был близок уже к $2 млрд. К 2025 году выручка на рассматриваемом рынке, по оценке Tractica, достигнет $26,2 млрд.

Рост дохода от сегментов рынка CV до 2025 года (источник: Tractica)

Maximize Market Research

Компания Maximize Market Research не столь оптимистична относительно темпов роста рынка CV, как Market Research Future, хотя и начинает свой прогноз даже с несколько большего уровня – 10,06 млрд. долл. в 2016 году. Однако на 2024 год она прогнозирует объем рынка почти в два раза меньше – лишь 18,07 млрд. долл.

Рост рынка CV по прогнозу Maximize Market Research

Рынки компонентов для систем CV

Рынок сенсорных матриц

По данным французской компании Yole Développement^[43] рынок сенсорных матриц для камер для компьютерного зрения вырастет от 2 млрд. долл. в 2017 г. до примерно 4 млрд. долл. в 2023 году при среднегодовом темпе роста CAGR 12%. Доли рынка компаний, производящих сенсорные матрицы (не только для компьютерного зрения), по данным за 2015-2016 гг. показаны на рисунке ниже.

Рынок сенсорных матриц за 2016-2017 гг. (источник: Yole Développement)

Абсолютным лидером на этом рынке является компания Sony, следом за которой идут Samsung и Omnivision. Этот рынок, как и рынок камер в целом, является очень динамичным и на нём происходит большое количество слияний и поглощений.

Рынок камер

В 2018 году объем поставок видеокамер для видеонаблюдения в мире составил около 130 млн. шт ^[44].

В Великобритании в 2013 году насчитывалось около 6 млн. камер IVS (примерно 1 камера на 11 человек)^[45].

В китайском городе Тянцзинь (крупный промышленный центр неподалёку от Пекина) в 2015 году насчитывалось более 600 тыс. камер высокого разрешения, которые производили 50 петабайт видео ежедневно.

Хотя многие системы видеонаблюдения всё ещё требуют наблюдения со стороны персонала, разработки в области автоматизированного компьютерного зрения в целях безопасности являются одним из самых заметных трендов^[46].

Потребительский рынок

Потребительский рынок (Consumer) по оценкам многих аналитиков остаётся самым крупным вертикальным рынком для компьютерного зрения и одним из самых быстрорастущих его сегментов^[47].

Согласно данным портала Statista.com потребительский рынок искусственного интеллекта с CV вырос с 2 млрд. долл. в 2015 году до 17,7 млрд. долл. в 2019 году с CAGR 40%^[48].

Рост потребительского сектора рынка услуг компьютерного зрения (источник: Statista.com)

Рынок CV в России

Основная статья: Видеоаналитика (российский рынок)

Как указывалось выше, рынок компьютерного зрения весьма сложен для оценки его объёма и прогноза его роста по ряду причин:

Неопределённость таксономии: что именно следует относить к компьютерному зрению? Некоторые компании оценивают, например, только рынок видеокамер, не включая программное обеспечение. Другие относят к компьютерному зрению только смарт-камеры со встроенным ПО обработки изображений, а отдельные платформы обработки изображений и искусственный интеллект считают другим сегментом и т.д. С другой стороны, очевидно, что далеко не все решения искусственного интеллекта используются в целях CV.
Несмотря на то, что технологии CV используются достаточно давно, в России рынок систем и решений CV пока нельзя считать окончательно сформировавшимся.
Компьютерное зрение применяется в широком спектре задач и часто его оценка производится только для каких-то определённых сегментов, например, распознавания лиц, которое, в свою очередь, также может использоваться во многих секторах рынка: охранном видеонаблюдении, ритейле, поисковых мероприятиях и пр.
Решения с использованием технологий CV в большинстве случаев являются органической частью других, более широких решений, например, «Умного города», и иногда бывает сложно оценить его долю в этих решениях.

В ходе исследования был проведён опрос более чем 50 участников рынка CV. Многие из них затруднились оценить объём рынка CV в России и дать прогноз его развития на ближайшие 3-5 лет. Ответы участников опроса, которые дали оценку объёма рынка CV в России, характеризовались большим «разбросом» - от 1 до 30 млрд. руб. в настоящее время и от 5 до 100 млрд. к 2025 году.

Прогнозы темпов среднегодового роста на период от 2019 до 2025 года также имели достаточно широкие девиации: от 5% до 50% CAGR.

По мнению аналитиков TAdviser, это обусловлено тем, что участники опроса обычно работают в определённых сегментах широкого и многогранного рынка, поэтому их оценки для определения общего объёма могут быть субъективны.

Методология оценки

Исходя из этих предпосылок, для оценки рынка CV России была выбрана методика многофакторной сравнительной оценки, которая используется для обработки данных о недостаточно хорошо определённых и структурированных рынках и новых технологиях.

Данный метод предполагает сравнение объёмов других известных рынков (чаще всего мирового, а также рынка развитых стран и регионов мира) и оценку региональных рынков по другим известным параметрам, например, по доле в мировом ВВП. Полученный результат подвергается многофакторной проверке по другим косвенным данным, которая показывает степень объективности начальной оценки и даёт возможность скорректировать её. В данном исследовании такой метод оценки показал достаточно хорошую сходимость результатов.

В оценку рынка компьютерного зрения в России были включены три его основных сегмента: программное обеспечение, услуги и оборудование. Факторы оценки: генерируемый каждым сегментом доход, а также объём продаж оборудования и ПО, относящихся к технологиям CV.

В результате анализа тенденций развития рынка компьютерного зрения в России методом и сравнения их с мировыми трендами, оценка объёма рынка CV России в 2018 году составила около 8 млрд. руб.

К концу 2023 года объем рынка CV в России может достигнуть и превысить 38 млрд. руб. при сохранении курса рубля на дату исследования, а также при сохранении текущих тенденций развития цифровой экономики.

Темпы роста CAGR рынка CV в России после 2021 года, возможно, возрастут до 40% в год, при планируемых результатах реализации национальной программы цифровой экономики.

Рост рынка CV в России за 2018 – 2023 годы (источник: TAdviser)

Факторы, способствующие росту рынка CV в России

К факторам роста использования технологий CV в России следует, в первую очередь, отнести следующие:

Развитие национальной программы цифровой экономики, в которой компьютерное зрение прописано отдельным пунктом в разделе «Нейротехнологии и искусственный интеллект»^[49];
Потенциал российских инноваций на рынке систем автоматизации и робототехники^[50];
Развитие применений CV в розничной торговле^[51];
Развитие решений «Умного города»^[52], «Безопасного города»^[53] и интеллектуальных транспортных систем^[54];
Автоматизация промышленного производства^[55];
Развитие Интернета Вещей (IoT) и промышленного интернета IIoT^[56].

Факторы, препятствующие росту CV в России

Некоторые эксперты считают, что влияние компьютерного зрения на экономику, социальную сферу и нашу повседневную жизнь будет значительным, однако, в России пока не хватает условий для инновационной деятельности, создания новых технологических компаний и запуска крупных проектов. Для успеха российских компаний в области компьютерного зрения нужны высококлассные специалисты, однако, по мнению этих экспертов, российская система высшего специального образования пока не справляется с требованиями рынка по подготовке профессиональных кадров в области CV^[57].

По мнению других участников рынка, одним из основных сдерживающих факторов может быть отсутствие необходимых навыков и знаний у российских разработчиков систем CV и сопутствующего ПО^[58].

Сдерживающим фактором для развития CV в России может быть также недостаточное развитие сопутствующих технологий широкого спектра – от исполнительных электрических механизмов до интегральных микросхем. Это препятствует развитию смежных отраслей, в которых необходимы технологии CV (например, роботостроения).

Среди других препятствий развития CV в России, которые указывают участники рынка CV, следующие:

Несовершенство законодательства в сфере искусственного интеллекта в РФ;
Проблемы безопасности и конфиденциальности;
Непроработанность ценообразования и бизнес-моделей;
Недостаточная точность и надёжность систем;
Высокая стоимость разработки и внедрения;
Регуляторные проблемы;
Долгое время окупаемости;
Завышенные ожидания заказчиков по параметрам работы систем CV, а также их себестоимости.

Состояние и перспективы развития CV в России

Результаты опроса, проведённого в ходе исследования, показывают состояние рынка на 2018 и наиболее перспективные отрасли для развития компьютерного зрения на последующие 2-3 года (см. рисунки ниже).

Видеонаблюдение и безопасность 32%
Автомобили и транспорт 5%
Производственный сектор 17%
Оборонный сектор 8%
Потребительский рынок 5%
Медицина и здравоохранение 14%
Сельское хозяйство 3%
Розничная и оптовая торговля 10%
Почта, логистика, доставка товаров 3%
Другое 3%

Состояние рынка компьютерного зрения на 2018 г. (источник: TAdviser, 2019)

Наиболее перспективные отрасли для применения CV в России по результатам опроса в ходе исследования:

Видеонаблюдение и безопасность 28%
Автомобили и транспортные средства 16%
Производственный сектор 16%
Оборонный сектор 12%
Потребительский рынок 8%
Медицина и здравоохранение 28%
Сельское хозяйство 4%
Розничная и оптовая торговля 8%

Наиболее перспективные отрасли для развития компьютерного зрения (источник: TAdviser, 2019)

Экономический эффект от использования систем компьютерного зрения

Снижение затрат

Многие предприятия используют ручную проверку качества изделий, что приводит к высоким затратам на оплату труда. Системы CV, при их правильной интеграции, могут выполнять задачи контроля качества быстрее и точнее, чем человек. Расчёт эффективности выполняется в каждом конкретном случае, каких-то общих шаблонов здесь не существует.

Операционные преимущества

Снижение времени на контроль качества или сортировку изделий при массовом производстве позволяет значительно повысить скорость производства и, следовательно, общую производительность труда. Кроме того, не выявленное заранее несоответствие изделия заданным параметрам может вызвать остановку производственной линии и, следовательно, затраты времени и труда на её обслуживание и повторный запуск. Компьютерное зрение способно устранить эти потери.

Сбор данных и отслеживание параметров

Сбор данных от систем CV и их интеграция в программные решения систем управления производственными процессами MES (Manufacturing Execution System) даёт глубокое понимание производственного процесса, облегчает анализ и нахождение путей его усовершенствования. Такие усовершенствования можно отслеживать и затем учитывать их в общей оценке эффективности внедрения систем CV.

Повышение качества

Системы CV обеспечивают то, что на выходе производственных линий будут появляться только точно соответствующие параметрам качества изделия. Часто именно этот аспект является решающим при внедрении систем CV. Степень удовлетворённости конечного потребителя и общественное мнение о качестве и надёжности изделий предприятия сложно оценить в терминах экономической эффективности, однако, с точки зрения маркетинга это очень важный аспект.

Снижение непродуктивных затрат

Производители часто закладывают некоторый уровень непродуктивных затрат (потерь) в стоимость производства. Например, при выпуске расфасованных жидкостей, производители закладывают некоторые объёмы сверх положенных по номиналу, поскольку недолив на несколько процентов приведёт к полной отбраковке ёмкости на этапе выходного контроля, а наоборот, излишний объем жидкости в большинстве случаев не приведёт к потерям номинального объёма. Использование систем CV способно значительно снизить допустимый допуск на излишний объем расфасованной продукции и уменьшить непроизводительные затраты.

Повышение безопасности

Это один из основных факторов мотивации при внедрении систем CV. Устранение операторов из вредных сред и замена их на системы CV позволит сократить затраты на оплату труда и повысить безопасность сотрудников, т.е. снизить возможные потери на выплату страховок и компенсаций.

Пример оценки эффективности внедрения CV

Рассмотрим онлайновый маркетплейс, где пользователи продают одежду, бывшую в употреблении. Для этого пользователям портала необходимо загрузить несколько фото одежды и дать короткое описание изделия^[59].

Правила маркетплейса предписывают, что можно предлагать к продаже только новую либо мало ношенную одежду, и именно одежду, а не гаджеты, например. Кроме того, предпочтения могут отдаваться известным брендам одежды с доказанным качеством. Недостаточно качественные фото, даже при удовлетворении прочих требований, не подлежат публикации. Для этого в штате маркетплейса имеется несколько модераторов, которые оценивают пригодность того или иного объявления для публикации.

Предположим, что в штате маркетплейса для выполнения этой работы имеется четыре модератора, которые должны просматривать 150 тыс. уникальных изображений в день, загружаемых пользователями на сайт. Допустим, что 15% из них будут отбракованы из-за низкого качества контента (т.е. 22500 картинок). Каждому модератору требуется примерно 10 секунд, чтобы оценить пригодность изображения для публикации.

Зарплата модератора составляет 12 долларов в час, каждый модератор работает 8 часов в день.

Несложный расчёт показывает, что при идеальных условиях модераторы могут отсмотреть не более 11520 картинок (т.е. 8%) из 150 тыс. загружаемых на сайт ежедневно.

Что может предпринять маркетплейс в такой ситуации? Есть три возможных варианта:

Нанять больше модераторов, тем самым значительно увеличив накладные расходы, что неизбежно повлечёт увеличение размера комиссии маркетплейса и, следовательно, снижение количества пользователей.
Разработать методы, позволяющие сократить количество изображений, подлежащих модерации.
Применить технологию распознавания образов в системе CV, которая будет брать на себя большинство рутинной работы (например, 90%), оставляя человеку (модератору) только наиболее сложные случаи (10%).

Расчёты показывают, что при выборе третьего варианта экономится 73% ручной работы, что даёт экономию в 6850 долл. в месяц. Компания Cognex приводит несколько собственных кейсов сокращения затрат при использовании систем CV в различных отраслях производства.

Известный автопроизводитель внедрил систему CV для контроля производственного оборудования, что дало возможность сократить несколько позиций по обслуживанию с оплатой около 5000 долларов в месяц. Внедрение системы CV окупилось за 6 месяцев. Оценка общей эффективности составила около 100 тыс. долларов в год.
Внедрение роботов с компьютерным зрением на производственном предприятии дало возможность сократить стоимость часа рабочего времени на 15 долларов в пересчёте на одного рабочего. Экономия в год составила около 160 тыс. долларов.
Применение компьютерного зрения дало производственному предприятию в США возможность избавиться от использования дорогостоящей оснастки производственной линии для точного позиционирования обрабатываемых изделий. Это дало возможность предприятию экономить около 120 тыс. долларов в год.